Curated knowledge graphs encode domain expertise and improve the performance of recommendation, segmentation, ad targeting, and other machine learning systems in several domains. As new concepts emerge in a domain, knowledge graphs must be expanded to preserve machine learning performance. Manually expanding knowledge graphs, however, is infeasible at scale. In this work, we propose a method for knowledge graph expansion with humans-in-the-loop. Concretely, given a knowledge graph, our method predicts the "parents" of new concepts to be added to this graph for further verification by human experts. We show that our method is both accurate and provably "human-friendly". Specifically, we prove that our method predicts parents that are "near" concepts' true parents in the knowledge graph, even when the predictions are incorrect. We then show, with a controlled experiment, that satisfying this property increases both the speed and the accuracy of the human-algorithm collaboration. We further evaluate our method on a knowledge graph from Pinterest and show that it outperforms competing methods on both accuracy and human-friendliness. Upon deployment in production at Pinterest, our method reduced the time needed for knowledge graph expansion by ~400% (compared to manual expansion), and contributed to a subsequent increase in ad revenue of 20%.
translated by 谷歌翻译
科学研究的基本目标是了解因果关系。然而,尽管因果关系在生活和社会科学中的重要作用,但在自然语言处理(NLP)中并不具有相同的重要性,而自然语言处理(NLP)传统上更加重视预测任务。这种区别开始逐渐消失,随着因果推理和语言处理的融合,跨学科研究的新兴领域。尽管如此,关于NLP因果关系的研究仍然散布在没有统一的定义,基准数据集的情况下,并清楚地表达了将因果推论应用于文本领域的挑战和机遇,并具有其独特的属性。在这项调查中,我们巩固了整个学术领域的研究,并将其置于更广泛的NLP景观中。我们介绍了用文本估算因果效应的统计挑战,其中包含文本用作结果,治疗或解决混杂问题的设置。此外,我们探讨了因果推理的潜在用途,以提高NLP模型的鲁棒性,公平性和解释性。因此,我们提供了NLP社区因果推断的统一概述。
translated by 谷歌翻译
会话推荐系统(CRS)是交互式代理,通过多转交谈来支持其用户与建议相关的目标。通常,可以在各个维度上评估CRS。今天的CRS主要依靠离线(计算)措施来评估其算法与不同基线相比的性能。但是,离线措施可能会有局限性,例如,当将新生成的响应与地面真理进行比较的指标与人类的看法无关时,因为在给定的对话情况下,各种替代性产生的响应可能也是合适的。因此,对基于机器学习的CRS模型的当前研究认识到人类在评估过程中的重要性,知道纯离线测量可能不足以评估CRS等高度交互式系统。
translated by 谷歌翻译
与自然语言中用户互动的对话推荐系统(CRS)利用了在配对人类的帮助下收集的建议对话框,其中一个人扮演寻求者的角色,而另一个则是推荐人。这些建议对话包括项目和实体,以披露寻求者自然语言的偏好。但是,为了精确地对寻求者的偏好进行建模并始终如一地做出反应,主要是CRS依赖于对话框中出现的明确注释的项目和实体,通常会利用域知识。在这项工作中,我们调查了受启发的数据集,该数据集包含有关社交对话建议的建议对话框,其中使用自动关键字或模式匹配技术明确注释项目和实体。为此,我们发现了大量案例,这些案例和实体根本被错误注释或缺少注释。然而,这个问题仍然在何种程度上有效的注释有效。此外,目前尚不清楚穷人和改善注释对CRS总体有效性的相对影响在响应的一致性和质量方面是什么。在这方面,首先,我们手动修复了注释并删除了受启发数据集中的噪声。其次,我们使用两个版本的数据集评估了几个基准CR的性能。我们的分析表明,使用数据集的改进版本,即Inspired2,各种基准CRS的表现优于且对话框与使用原始版本的使用相比,具有丰富的知识概念。我们在https://github.com/ahtsham58/inspired2公开发布改进的数据集(Inspired2)。
translated by 谷歌翻译
在过去的25年中,我们目睹了机器学习在编译器领域的广泛应用。选择和相位订购问题。但是,有限的作品已在最先进的编译器(即LLVM)上游,以将前者无缝集成到编译器的优化管道中,以便由用户容易部署。 MLGO是此类项目的第一个项目之一,它仅努力使用强化学习使用基于ML的INLINER来减少二进制的代码大小。本文介绍了mlgoperf;第一个端到端框架,能够使用LLVM的ML Inliner优化性能。它采用二级ML模型来生成用于训练重新定位的增强学习代理的奖励,该辅助剂以前由MLGO用作主要模型。它通过预测分析功能的函数的速度加速来做到这一点,并为主要模型提供快速训练框架,否则将是不切实际的。实验结果表明,MLGOPERF在LLVM在O3时的优化方面的优化分别为SPEC CPU2006和CBENCH基准分别获得了1.8%和2.2%。此外,提出的方法为我们的基准测试带来了自动点守则区域的26%,可以将其转化为额外的3.7%速度值。
translated by 谷歌翻译
基于深度神经网络(DNN)的自主驱动系统(ADSS)预计将减少道路事故,并在运输领域提高安全性,因为它从驾驶任务中消除人为错误的因素。由于意外的驾驶条件,基于DNN的广告有时可能表现出错误或意外的行为,这可能导致事故。不可能概括所有驾驶条件的DNN模型性能。因此,在培训广告期间未考虑的驾驶条件可能导致自治车辆安全的不可预测的后果。本研究提出了一种基于AutoEncoder和时间序列分析的异常检测系统,以防止自动车辆在运行时进行安全临界不一致行为。我们称为Deepguard的方法包括两个组件。第一个组件,不一致的行为预测器,基于AutoEncoder和时间序列分析来重建驾驶场景。基于重建错误和阈值,它确定正常和意外的驾驶场景并预测潜在的不一致行为。第二个组件提供了飞行安全防护装置,即它自动激活治疗策略以防止行为不一致。我们评估了DeepGuard在预测使用已在Udacity Simulator中的可用开放的Sourced DNN的注入的异常驾驶场景预测的性能。我们的仿真结果表明,Deepguard的最佳变体可以预测司机广告的高达93%,Dave2广告的83%,在时期广告模型上的80%不一致行为,表现优于围攻和Deeproad。总体而言,DeepGuard可以通过执行预定义的安全罩来防止高达89%的ADS预测不一致行为。
translated by 谷歌翻译